查看原文
其他

王hh 2018-06-06


格式

bed文件是ucsc 的genome browser的一个格式,主要构成是一个可变方式的数据线,用来描述注释的数据。BED线有3个要求的字段(基本列)和9个额外的字段(附加列)。 每条线的字段数目必须是任意单条数据的在注释上一致。可选字段的序试结合低数字的字段必须流行如果高位字段被使用。

基本列

  1. chrom 即chrom 或者scaffold 名称

  2. chromStart Feature在chrom中的起始位置(前坐标),chrom的第一个碱基的坐标是0,chromStart如果等于2,其实表示的是第三个碱基,feature包含这个碱基

  3. chromEnd feature在chrom中的终止位置(后坐标),chromEnd如果等于5,其实表示的是第六个碱基之前的碱基,feature不包含5这个碱基

feature指的是Genome features can be functional elements (e.g., genes), genetic polymorphisms (e.g. SNPs, INDELs, or structural variants), or other annotations that have been discovered or curated by genome sequencing groups or genome browser groups. In addition, genome features can be custom annotations that an individual lab or researcher defines (e.g., my novel gene or variant).

如下FASTA格式的序列

  1. >chr1

  2. ATGCTTT

对应的bed文件就是:

  1. BED file

  2. chr1 2 5

如果用fastaFromBed提取,那么你能得到的序列是GCT(2号到5号之前的base,第一个base是0号)

附加列

  1. name #feature 的名字

  2. score 0到1000的分值,如果track线在注释时属性设置为1,那么这个分值会决定现示灰度水平,数字 越大,灰度越高。下面的这个表格显示Genome Browser

  3. strand 定义链的''+” 或者”-”

  4. thickStart #feature的起始

  5. thickEnd #feature的终止

  6. itermRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb属性是设置为'On”, 这个RBG 值将 决 定数据的显示的颜色在BED 线。

  7. blockCount #exon个数

  8. blockSize #每个exon的大小

  9. blockStarts #以chromStart为起点的各个exon的起始点

与GTF的关系

genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示,用UCSC Genome Browser进行可视化比较。 Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。

两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。

处理工具

处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 等等。简单介绍一下 BedTools的使用:

BEDTools主要使用BED格式的前三列,BED可以最多有12列。BED格式的常用列描述如下: chrom: 染色体信息, 如chr1, III, myCHrom, contig1112.23, 必须有 start: genome feature的起始位点,从0开始, 必须有 end: genome feature的终止位点,至少为1, 必须有 name: genome feature的官方名称或者自定义的一个名字 score: 可以是p值等等一些可以刻量化的数值信息 strands: 正反链信息 这些列的数据,也可以用在circos上,进行基因组信息可视化。

实例:

  • intersectBed可以 用来求两个BED或者BAM文件中的overlap

  • overlap可以进行自定义是整个genome features的overlap还是局部。

  • bamToBed可以 用来把比对产生的bam文件转化为Bed文件,可以配合coverageBed命令使用。

  • genomeCoverageBed要提供一个bam和一个基因组染色体或contigID 以及长度的信息

也可以用samtools pileup 或 samtools depth 获得测序深度 另外还有一个软件 qualimap可以做这些事 http://qualimap.bioinfo.cipf.es

参考 

http://blog.sina.com.cn/s/blog_7cffd1400101f4yp.html

http://blog.sina.com.cn/s/blog_80572f5d0102x5m7.html


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存